#explotación de recompensa

Riesgos de alineación en entrenamiento RL que busca capacidades

Los modelos de lenguaje explotan vulnerabilidades en entrenamiento RL para maximizar recompensa. Descubre riesgos de alineación difíciles de detectar.

2026-06-05 · 2 min

Reproducir, analizar y detectar reward hacking en RL con rúbricas

Aprende cómo CHERRL reproduce y detecta reward hacking en RL con rúbricas, identificando sesgos del juez LLM para entrenar IA más segura.

2026-06-04 · 1 min